Content
离散型随机变量
- 退化分布
- 伯努利分布
- 二项分布
- 泊松分布
- 几何分布
- 超几何分布
连续型随机变量
- 均匀分布
- 指数分布
- 高斯分布
退化分布(Degenerate Distribution)
离散型随机变量
亦称”确定性分布“,”凝聚分布“,”单点分布“,就是整个样本空间只有一个随机变量取值,而且它的概率一定为1.
设X表示必然事件c:
$P(X=c) = 1$
伯努利分布(Bernoulli Distribution)
离散型随机变量
亦称“两点分布”,就是整个样本空间只有两种情况,不是其一就是其二.
设X表示再一次Bernoulli试验中某事件发生:
$P(X=1) = p$
$P(X=0)=1-p$
二项分布(Binomial Distribution)
离散型随机变量
本质上就是 “n重Bernoulli distribution”,进行了多次的伯努利试验,而每一次都是相互独立的。
设X表示n重Bernoulli试验中某事件发生的次数,X的可能取值有$0, 1, 2, …, n$:
$P(X=k) = C_n^kp^k(1-p)^{n-k}$
上述情况称为X服从参数为n,p的伯努利分布,记为
$X$~$B(n, p)$
泊松分布(Poisson Distribution)
离散型随机变量
若X的概率分布律为:
$P(X=k) = \frac{\lambda^ke^{-\lambda}}{k!},k=0,1,2…$
其中$\lambda>0$,就称X服从参数为$\lambda$的泊松分布
记为 $X$~$\pi(\lambda)$ 或 $X$~$P(\lambda)$
$P(X=0) + P(X=1) + … P(X=+∞) = e^{-\lambda}·\sum_{k=0}^{+∞}\frac{\lambda^k}{k!}$,而根据泰勒展开式可得:$e^\lambda = \sum_{k=0}^{+∞}\frac{\lambda^k}{k!}$,所以可知概率之和为1.
Poisson Distribution 的用途:
- 某人一天内收到的微信的数量
- 来到某公共汽车站的乘客
- 某放射性物质发射出的粒子
- 显微镜下某区域中的白血球
如果某事件以固定强度$\lambda$,随机且独立地出现,该时间在单位时间内出现的次数(个数)可以看成是服从泊松分布。
Poisson distribution 与 Binomial distribution 的关系:
当$n>10, p<0.1$时,
$C_n^kp^k(1-p)^{n-k} ≈ \frac{e^{-\lambda}\lambda^k}{k!}$,其中 $\lambda = np$
即当n很大,p很小时,$B(n, p) ≈ P(np)$
几何分布(Geometric Distribution)
离散型随机变量
其实就是进行多次Bernoulli试验直到A事件发生为止
设X为进行试验的次数直到A事件发生,A事件发生的概率为 $p$
$P(X=k) = (1-p)^kp,k=1,2,3,…$
那称X服从参数为 $p$ 的几何分布,记为
$X$ ~ $Geom(p)$
举个栗子:chestnut:
假设我们买一种中奖率为1%彩票,每一次中奖的概率都一样,买了k次直到中奖
单独买第k次的中奖概率都比第k-1次要低,但只要次数足够多,买了k次就中奖的概率就是前k次中奖概率的总和,如上图。
超几何分布(Hypergeometric Distribution)
离散型随机变量
待补
均匀分布(Uniform Dsitribution)
连续型随机变量
若 $X$ 的PDF为 $f(x)\begin{cases} \frac{1}{b-a}, x\in(a, b) \0, otherwise \end{cases}$
就称 $X$ 服从(a, b)上的Uniform distribution
记为 $X$~$U(a, b)$ 或 $X$~$Unif(a, b)$
- $X$~$U(a, b)$ 的PDF图
- $X$~$U(a, b)$ 的CDF图
- $X$~$U(a, b)$的计算
- $P(x\in I) = \int_If(x)dx$
- $P(x \in I) = \frac{I \bigcap (a, b) 的长度}{(a, b) 的长度}$
指数分布(Exponential Distribution)
连续型随机变量
若 $X$ 的概率密度函数为 $f(x) = \begin{cases} \lambda e^{-\lambda x} ,x>0\ 0,x \leq 0\end{cases} (\lambda >0)$
则称 $X$ 服从参数为 $\lambda$ 的Exponential distribution
记为 $X$~$E(\lambda)$ 或 $X$~$Exp(\lambda)$
重要性质:$X$~$E(\lambda)$具有无记忆性
$P(X>a|X>b) = P(X>a-b)$
指数分布用途
- 可以用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔、中文维基百科新条目出现的时间间隔等;
- 在排队论中,一个顾客接受服务的时间长短也可以用指数分布来近似;
- 无记忆性的现象;
高斯分布(Guassian Distribution / Normal Distribution)
连续型随机变量
若 $X$ 的PDF为
$f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}, (-\infty < x < \infty)$
就称 $X$ 服从参数为 $\mu, \sigma$ 的高斯分布(或正太分布,或误差分布)
记为 $X~N(\mu, \sigma^2)$
两个参数的含义:
$\sigma$:称为尺度参数,会决定曲线分散程度。当固定 $\mu$ , $\sigma$ 越小,图形越高越瘦,$\sigma$ 越大,图形越矮越胖。
$\mu$:称为位置参数,会决定对称轴的位置,当固定 $\sigma$ ,改变 $\mu$ 相当于将图像沿 $x$ 轴平移,图形整体形状不变。
正态分布的概率计算:
若 $X$~$N(\mu, \sigma^2)$,对实数 $x$
$P(X \leq x) = F(x) = \frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^xe^{\frac{(t-\mu)^2}{2\sigma^2}dt}$
但积分算不出来,于是我们一般会将其转化为标准正态,然后利用标准正态分布表来求。
于是用到了以下性质:
当$X$~ $N(\mu,\sigma^2)$时,$\frac{X-\mu}{\sigma}$~$N(0,1)$
举个栗子:chestnut:
一批钢材长度(cm) $X$~$N(\mu,\sigma^2)$,$\mu=100$,$\sigma=2$,
求:
- 这批钢材长度小于97.8的概率;
- 这批钢材长度落在区间(97.8,103)的概率;
标准正态分布
正态分布的用途:
自然界和人类社会中很多现象可以看作正态分布
- 人的生理尺寸(身高、体重);
- 医学检验指标(红细胞数、血小板);
- 测量误差;
- 等等
多个随机变量的和可以用正态分布来近似(中心极限定理)
某位同学完成所有作业的时间;
二项分布
等等